查看原文
其他

【综述专栏】港科+清华+中科院+微软等——视觉-语言智能最新综述

在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。

来源:知乎—yearn
地址:https://zhuanlan.zhihu.com/p/476357460

来自香港科技大学,清华大学,中国科学院大学,微软以及IDEA的 视觉-自然语言多模态学习综述。这篇综述是目前而言对VL,以及VLP总结的最详细的一篇综述。

文章链接:https://arxiv.org/abs/2203.01922

文章主要由以下几部分组成

  • Task Specific Problems

  • Vision Language Joint Representation

  • Scale up Models and Data

  • Future Trends


01

Task Specific Problems

早期VL的方法都是针对特定任务设计的,这一节将这些任务分为四类。对于每个任务,总结了输入、输出、数据集、metric和主流的方法。


02

Vision Language Joint Representation

在本节中,本文介绍了VLP(VL预训练)模型的主要组成部分。如下图,VLP模型中主要有三个组件,即视觉嵌入(VE)、文本嵌入(TE)和模态融合(MF)模块。VE和TE通常分别用图像和文本进行预训练,而MF则将VE和TE提取的特征,与图像-文本的预训练进行融合。

这一节对这三个模块所使用的技术细节分别进行了展开介绍,并对预训练的必要性进行了的讨论。


03

Scale up Models and Data

尽管视觉-语言联合表示已经取得了令人鼓舞的进展,但上述大多数研究主要集中在对象级表示上,以追求良好的跨模态对齐。然而,它们有一个很强的假设:图像和文本对都有很好的标签,这就限制了训练数据集只能使用相对较小的有标签数据集。这一节对兴起的,无监督的VLP方法进行了介绍与总结,比如CLIP,DALL-E等。这些方法对标签没有要求,因此可以使用超大的数据集进行训练。


04

Future Trends

最后一节的篇幅用来讨论VL领域的发展趋势以及可能的研究方向,包括

  1. 多个模态的数据相互促进进行学习。

  2. 一个统一的框架,可以处理任意模态的数据。

  3. VL+knowledge。将常识性的内容融入所学习的模型。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“综述专栏”历史文章


更多综述专栏文章,

请点击文章底部“阅读原文”查看



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力
一张图实现街道级定位,端到端图像地理定位大模型AddressCLIP登ECCV2024
整合 200 多项相关研究,大模型「终生学习」最新综述来了
联汇科技OmChat:突破长视频理解极限的多模态大模型
创新 IAA 技术:360 引领语言模型在多模态理解中的无损进化

文章有问题?点此查看未经处理的缓存